类PPO强化学习三部曲:GRPO简化→DAPO修正→GSPO全面进化
本文虽然标题中提到“类 PPO 算法”,但更准确地说,DAPO 和 GSPO 都可以视作在 GRPO 框架下,针对不同任务场景的一系列演进方案。它们并非简单的替代,而是通过改进策略更新与约束机制,逐步修正了 GRPO 在实践中暴露出的若干缺陷。
本文虽然标题中提到“类 PPO 算法”,但更准确地说,DAPO 和 GSPO 都可以视作在 GRPO 框架下,针对不同任务场景的一系列演进方案。它们并非简单的替代,而是通过改进策略更新与约束机制,逐步修正了 GRPO 在实践中暴露出的若干缺陷。
打开一个用 Apifox 发布的在线 API 文档,你会发现每个接口旁边都有一个「调试」按钮。点击之后,页面右侧会滑出一个调试面板,让你可以直接在文档页面上测试接口。
9日,英伟达重磅发布了专为海量上下文AI打造的CUDA GPU——Rubin CPX,将大模型一次性推理带入「百万Token时代」。NVIDIA创始人兼CEO黄仁勋表示,Vera Rubin平台将再次推动AI计算的前沿,不仅带来下一代Rubin GPU,也将开
然而,物理世界是客观存在的。所以提取、理解、生成3D世界的数据、实现空间智能和处理语言问题时截然不同。
在周二的 AI 基础设施峰会上,英伟达宣布推出一款名为Rubin CPX(Rubin Context GPUs)的新 GPU,专为超过 100 万 token 的长上下文推理而设计。
英伟达宣布将在2026年底前推出全新人工智能芯片Rubin CPX。这款基于 Rubin 架构的新产品是 Blackwell 平台的继任者,被视为应对视频生成与 AI 辅助编程算力爆炸式增长的关键之作。
在周二的 AI 基础设施峰会上,英伟达宣布推出一款名为Rubin CPX(Rubin Context GPUs)的新 GPU,专为超过 100 万 token 的长上下文推理而设计。
在周二的 AI 基础设施峰会上,英伟达宣布推出一款名为Rubin CPX(Rubin Context GPUs)的新 GPU,专为超过 100 万 token 的长上下文推理而设计。
上周末,OpenAI 发的一篇论文引爆了社区。这篇论文系统性地揭示了幻觉的根源,指出问题出在奖励上 —— 标准的训练和评估程序更倾向于对猜测进行奖励,而不是在模型勇于承认不确定时给予奖励。可能就是因为意识到了这个问题,并找出了针对性的解法,GPT-5 的幻觉率
多模态大模型MLLMs 能够处理高分辨率图像、长视频序列和冗长音频输入等复杂上下文,但自注意力机制的二次复杂度使得大量输入 token 带来了巨大的计算和内存需求。 如下图,上:图像、视频和音频数据类型可以在其表示维度上进行扩展,从 而导致 token 数量的
近期,三维视觉领域的基础模型取得了显著进展,尤其是在处理长序列图像输入以进行三维重建方面。然而,这些模型在推理效率上常常面临巨大挑战。厦门大学和上海交通大学的研究者们提出了一种名为FastVGGT的免训练加速方法,它能在不牺牲重建质量的前提下,将最先进的视觉几
据 RWA xyz 数据,Fidelity Investments 已于本月初在 Ethereum 上推出了价值约 2 亿美元的基于美国国债的 Interest Token。据介绍,Fidelity Digital Interest Token 将其总资产的至